跳到主要内容

常见机器学习算法

分类

线性回归

简单线性回归,只有一个独立变量 多远线性回归,具有多个独立变量

线性回归主要用于给予连续变量估计实际值。

逻辑回归

一种分类算法,也称 logit 回归。用语根据给定的一组自变量来估计离散值,如 0 或 1,真或假,是或否。基本上,它预测概率,因此它的输出在 0 和 1 只见。

决策树

支持向量机(SVM)

用于分类和回归问题。

朴素贝叶斯

使用贝叶斯定力来构建分类器,假设预测变量是独立的,累中某个特征的存在与任何其他特征的存在无关。特点是易于构建,特别适用于大型数据集。

K - 最近令居(KNN)

用于问题的分类和回归,广泛用于解决分类问题。存储所有可用的案例,并距离通过其 K 个邻居的多数选票来分类新案例。然后将该情况分配给通过函数测量的 K 近邻中最常见的类。距离函数可以是欧几里得,明可夫斯基和海明距离。

  • 计算上 KNN 比用于分类问题的其他算法昂贵。
  • 变量的桂芳华需要其他更高范围变量可以偏差。
  • 在 KNN 中,需要在噪音消除等预处理阶段进行。

K 均值聚类

解决聚类问题。一种无监督学习。K-Means 聚类算法的主要逻辑是通过许多聚类对数据集进行分类。按这些步骤通过 K-means 形成聚类。

  • K-means 为每个簇选取 k 个点,称为质心。
  • 每个数据点形成最接近质心的群集,即 k 个群集。
  • 根据现有集群成员查找每个集群的质心。
  • 重复知道收敛。

随记森林

监督分类算法,可以用于分类和回归两类问题。决策树的集合。每棵树给出一个分类,并且森林从他们中选择最好的分类。

优点:

  • 随记森林分类器可用于分类和回归任务。
  • 可以处理缺失的值。
  • 即使在森林中有更多的树,它也不会过度适合模型。